FILTER MODE ACTIVE

#цепочка рассуждений

Найдено записей: 10

#цепочка рассуждений22.09.2025

PDDL-INSTRUCT от MIT превратил 8B LLM в планировщик с 94% корректных планов — существенный прирост на сложных задачах

'PDDL-INSTRUCT обучает модели генерировать логические следы рассуждений и проверяет шаги через валидатор VAL, добиваясь 94% корректных планов в Blocksworld и крупных улучшений в других доменах.'

ЧИТАТЬ →

#цепочка рассуждений14.07.2025

Фракционное мышление: улучшение вывода LLM с адаптивным контролем глубины рассуждений

Фракционное мышление предлагает универсальный метод адаптивного управления глубиной рассуждений в LLM, значительно повышающий точность и эффективность решения сложных задач.

ЧИТАТЬ →

#цепочка рассуждений04.07.2025

ASTRO улучшает способность Llama 3 к рассуждению более чем на 16% с помощью посттренировки

ASTRO — новая методика посттренировки, существенно повышающая способность Llama 3 к рассуждению, используя поисковое мышление и самокоррекцию, с приростом по бенчмаркам до 20%.

ЧИТАТЬ →

#цепочка рассуждений03.07.2025

ReasonFlux-PRM: Революция в оценке цепочек рассуждений больших языковых моделей

'ReasonFlux-PRM — новая траекторно-ориентированная модель награды, которая оценивает промежуточные шаги и финальные ответы в больших языковых моделях, значительно улучшая их способности к рассуждениям и результаты обучения.'

ЧИТАТЬ →

#цепочка рассуждений11.06.2025

Mistral AI представляет серию Magistral: передовые LLM с цепочкой рассуждений для бизнеса и открытого ПО

Mistral AI представила серию Magistral — новые большие языковые модели, оптимизированные для рассуждений и мультиязычности, доступные в открытом и корпоративном вариантах.

ЧИТАТЬ →

#цепочка рассуждений09.06.2025

Отбор токенов с высокой энтропией в RLVR повышает точность и снижает затраты на обучение LLM

‘Селективное обучение на токенах с высокой энтропией улучшает результаты рассуждений LLM и снижает вычислительные затраты, устанавливая новые рекорды на тестах AIME.’

ЧИТАТЬ →

#цепочка рассуждений30.05.2025

Внутри Invisible Technologies: CEO Мэтью Фитцпатрик о ИИ, сотрудничестве с людьми и масштабировании автоматизации

Мэтью Фитцпатрик, CEO Invisible Technologies, рассказывает о сочетании человеческого опыта и ИИ для масштабирования автоматизации, значении RLHF и тенденциях достижения ROI в корпоративном ИИ.

ЧИТАТЬ →

#цепочка рассуждений27.05.2025

Phi-4-Reasoning доказывает: в ИИ мышлении больше — не всегда значит лучше

Microsoft Phi-4-reasoning показывает, что качественные и тщательно подобранные данные позволяют меньшим моделям ИИ выполнять сложные задачи рассуждения так же эффективно, как и гораздо большим моделям, опровергая миф о необходимости больших моделей.

ЧИТАТЬ →

#цепочка рассуждений29.04.2025

THINKPRM: Революция в масштабируемой проверке рассуждений с генеративными процессными моделями вознаграждения

THINKPRM представляет генеративную процессную модель вознаграждения, которая значительно улучшает проверку рассуждений с минимальным объемом данных, превосходя традиционные дискриминативные модели на ключевых тестах.

ЧИТАТЬ →

#цепочка рассуждений27.04.2025

Оптимизация производительности рассуждений: подробный анализ методов масштабирования во время инференса в языковых моделях

Новое исследование демонстрирует, что специализированные модели рассуждений с эффективными методами масштабирования во время инференса, такими как голосование большинства, превосходят общие модели в сложных задачах, открывая пути к оптимизации ресурсов.

ЧИТАТЬ →